| Especes | Poids | Longueur |
|---|---|---|
| P1 | 242 | 23.2 |
| P2 | 290 | 24.0 |
| P3 | 340 | 23.9 |
| P4 | 363 | 26.3 |
| P5 | 430 | 26.5 |
2eme-FA-EMS - BUT SD - E. Anakok
Données : On a pour 20 brèmes péchées dans le lac Laengelmavesi en Finland leurs poids (en gramme) et leurs tailles (en cm).
Pour \(i \in 1,\dots, n\) :
\(y_i\) est le poids du poisson \(i\) (en grammes)
\(x_i\) la longueur du poisson \(i\) (en cm).
| Especes | Poids | Longueur |
|---|---|---|
| P1 | 242 | 23.2 |
| P2 | 290 | 24.0 |
| P3 | 340 | 23.9 |
| P4 | 363 | 26.3 |
| P5 | 430 | 26.5 |
Questions
Expliquer le poids des poissons en fonctions de leurs tailles ?
Y’a-t-il une relation linéaire entre les deux ?
\[J(a,b) =\sum_{i=1}^n e_i ^2= \sum_{i=1}^n (y_i - \widehat{y_i})^2 = \sum_{i=1}^n (y_i - (ax_i + b))^2\]
Définition
\[\widehat{y}_i = ax_i+b\]
\[J(a,b)=\sum_{i=1}^{n} \left(y_i-(ax_i+b)\right)^2\]
\[J(a,b)=91435.22\]
Objectif
Avec notre échantillon de \(n\) observations, quelle confiance donner à l’estimation des coefficients \(a\) et \(b\) ?
Modélisation probabiliste du modèle linéaire
\(y_i\) est la réalisation d’une variable aléatoire \(Y_i\) telle que pour \(1 \leq i \leq n\): \[Y_i = \alpha x_i + \beta + E_i, \quad E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2) \]
Estimateurs du modèle
\[ {A}=\frac{\sum_{i=1}^n(x_i-\bar{x})(Y_i-\bar{Y})}{\sum_{i=1}^n(x_i-\bar{x})^2} \quad;\quad{B}=\bar{Y}-A\bar{x} \quad; \quad S^2=\frac{1}{n-2}\sum_{i=1}^n(Y_i-\widehat{Y_i})^2 \]
Valider les hypothèses du modèle avec les 4 graphes de diagnostic
On a \(n = 20\) observations.
Pour \(1 \leq i \leq n\):
\(x_i\) : longueur du poisson \(i\).
\(y_i\) : poids du poisson \(i\).
On a \(n=20\) observations. On note, pour \(1 \leq i \leq n\)
Définition : Modèle de régression linéaire simple
On suppose que \(y_i\) est la réalisation d’une variable aléatoire \(Y_i\) telle que pour \(1 \leq i \leq n\): \[Y_i = \alpha x_i + \beta + E_i\] où
Dans notre exemple, \(\alpha\) est l’effet de la longueur sur le poids.
Définition : Modèle de régression linéaire simple
\(E_i\) une variable aléatoire appelée erreur résiduelle , telle que:
Toutes les variables aléatoires \(E_1,\dots, E_n\) sont indépendantes;
Tous les \(E_i\) ont la même espérance, égale à 0;
Tous les \(E_i\) ont la même variance, égale à \(\mathbf{\sigma^2}\) (paramètre inconnu);
Tous les \(E_i\) suivent une loi normale;
\(\Rightarrow\) les \(E_i\) sont indépendants et identiquement distribués de loi \(\mathcal{N}(0, \sigma^2)\)
Remarques
\[\color{red}{Y_i} = {\color{blue}{\underbrace{\alpha x_i + \beta}_{{déterministe}{}}}} + \color{red}{\overbrace{E_i}^{aléatoire}}, 1 \leq i \leq n \]
où
Remarques
\[Y_i = \alpha x_i + \beta + E_i,\quad 1 \leq i \leq n, \quad E_i\overset{iid}\sim \mathcal{N}(0,\sigma^2)\] est équivalent à
Les \(Y_i\) sont indépendants et \(Y_i \sim \mathcal{N}(\) \(\alpha x_i +\beta, \sigma^2\) \(), \; 1 \leq i \leq n\)
On a \(n=20\) observations. On note, pour \(1 \leq i \leq n\)
On suppose que \(y_i\) est la réalisation d’une v. a. \(Y_i\) telle que pour \(1 \leq i \leq n\): \[Y_i = \alpha x_i + \beta + E_i \quad \text{avec} \quad E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]
Rappel
\[\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\quad, \quad \bar{y}\ =\ \frac{1}{n}\sum_{i=1}^{n} y_i\] \[\mathbb{V}_{emp}(x) = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\quad \text{ (estimateur biaisé)}\]
\[Cov_{emp}(x,y)= \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) \] \[\begin{align} r(x,y) &= \frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\displaystyle \sum_{i=1}^n(y_i-\bar{y})^2}} \\ & = \frac{Cov_{emp}(x,y)}{\sqrt{\mathbb{V}_{emp}(x)}\sqrt{\mathbb{V}_{emp}(y)}} \end{align}\]
Rappel
Rappel
Quelle est la valeur du coefficients de correlation de \(X\) avec \(X\) ?
Quelle est la valeur du coefficients de correlation de \(X\) avec \(2X\) ?
Quelle est la valeur du coefficients de correlation de \(X\) avec \(2X + 3\) ?
Quelle est la valeur du coefficients de correlation de \(X\) avec \(-X\) ?
Définition
\[\widehat{y}_i = ax_i+b\]
\[J(a,b)=\sum_{i=1}^{n} \left(y_i-(ax_i+b)\right)^2\]
Théorème
Exercice :
\(a =\) \(\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}= \frac{Cov_{emp}(x,y)}{\mathbb{V}_{emp}(x)}\) et \(b\) = \(\bar{y} - a\bar{x}\)
Définition
\[\begin{align} \color{red}{A}&=\frac{\sum_{i=1}^n(x_i-\bar{x})(Y_i-\bar{Y})}{\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{\sum_{i=1}^n(x_iY_i)-n\bar{x}\bar{Y}}{\sum_{i=1}^n x_i^2-n(\bar{x})^2}\\ \color{red}{B}&=\bar{Y}-A\bar{x} \end{align}\]
\[ \begin{align} \color{blue}{a}&=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{\sum_{i=1}^n(x_iy_i)-n\bar{x}\bar{y}}{\sum_{i=1}^n x_i^2-n(\bar{x})^2}\\ \color{blue}{b}&=\bar{y}-a\bar{x} \end{align}\]
(Intercept) Longueur
-876.48191 48.63832
\(a =\) 48.6383206 et \(b =\) -876.4819101
Définition
\(\widehat{Y_i}=Ax_i+B\), la prévision (aléatoire) par le modèle de régression linéaire associée à \(x_i\).
\(S^2\) estimateur de \(\sigma^2\) : variance empirique \[\color{red}{S^2=\frac{1}{n-2}\sum_{i=1}^n(Y_i-\widehat{Y_i})^2=\frac{1}{n-2}\sum_{i=1}^n(Y_i-Ax_i-B)^2}\]
Estimation de \(\sigma^2\) : réalisation \(s^2\) de \(S^2\) sur les données \[\color{blue}{s^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-ax_i-b)^2=\frac{1}{n-2}\sum_{i=1}^n \widehat{e}_i^2}\] où \(\widehat{e}_i = y_i - ax_i -b\) sont les résidus observés.
Call:
lm(formula = Poids ~ Longueur, data = fish)
Residuals:
Min 1Q Median 3Q Max
-218.349 -22.040 -5.274 46.515 97.877
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -876.482 198.380 -4.418 0.000332 ***
Longueur 48.638 7.082 6.868 2e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 71.27 on 18 degrees of freedom
Multiple R-squared: 0.7238, Adjusted R-squared: 0.7084
F-statistic: 47.16 on 1 and 18 DF, p-value: 2.004e-06
1 2 3 4 5 6
-9.9271269 -0.8377834 54.0260487 -39.7059207 17.5664152 22.9749190
On peut récupérer les infos:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -876.48191 198.379689 -4.418204 3.318341e-04
Longueur 48.63832 7.082325 6.867565 2.004153e-06
[1] "call" "terms" "residuals" "coefficients"
[5] "aliased" "sigma" "df" "r.squared"
[9] "adj.r.squared" "fstatistic" "cov.unscaled"
Les résidus observés permettent de valider les hypothèses du modèle linéaire:
Ce qu’on regarde: Les résidus observés \(\widehat{e}_i\) en fonction des prédictions \(\widehat{y}_i\).
Ce qu’on voit: La valeur des résidus ne semble pas dépendre de la valeur des prédictions (il ne sont donc pas structurés en fonction de la prédiction). Ils sont globalement identiquement distribués autour de 0.
Ce qu’on conclut: On valide l’hypothèse d’espérance constante et égale à 0.
Ce qu’on voit: Les valeurs des résidus dépendent de la valeur des prédictions (il sont donc structurés en fonction de la prédiction).
Ce qu’on conclut: On ne valide pas l’hypothèse d’espérance constante et égale à 0.
Ce qu’on regarde: la racine carrée de la valeur absolue des résidus (standardisés) observés en fonction des prédictions \(\widehat{y}_k\).
Ce qu’on voit: la racine carrée de la valeur absolue des résidus ne semble pas dépendre de la valeur des prédictions (il ne sont donc pas structurés en fonction de la prédiction). Ils sont globalement identiquement distribués autour de 0.8.
Ce qu’on conclut: On valide l’hypothèse de variance constante.
Ce qu’on voit: la racine carrée de la valeur absolue des résidus dépend de la valeur des prédictions (il sont donc structurés en fonction de la prédiction).
Ce qu’on conclut: On ne valide pas l’hypothèse de variance constante.
Ce qu’on regarde: La valeur des quantiles empiriques des résidus standardisés en fonction de la valeur quantiles théoriques d’une loi normale \(\mathcal{N}(0 ,1)\).
Ce qu’on voit: Les points sont globalement alignés sur la droite \(y = x\). Les quantiles empiriques sont donc à peu près égaux aux quantiles théoriques (si les hypothèses du modèle sont vraies).
Ce qu’on conclut: On valide l’hypothèse de distribution normale des résidus.
Ce qu’on voit: Les points ne sont pas globalement alignés sur la droite \(y = x\). Les quantiles empiriques sont donc différents des quantiles théoriques.
Ce qu’on conclut: On ne valide pas l’hypothèse de distribution normale des résidus.
Ce qu’on regarde: La valeur des résidus (standardisés) en fonction du levier de l’observation (poids d’une observation dans l’estimation de sa prédiction).
Ce qu’on voit: Les points ont tous un petit levier, donc aucun point n’influe trop sur la droite. Aucun point n’est en dehors de l’enveloppe délimitée par les hyperboles rouges, représentant les lignes de niveau 0.5 de la distance de Cook.
Ce qu’on conclut: Aucun point n’est aberrant ou trop influent.
Ce qu’on voit: Un point est en dehors de l’enveloppe délimitée par les hyperboles rouges, représentant les lignes de niveau 0.5 de la distance de Cook.
Ce qu’on conclut: Il y a un point aberrant dans les données.
Donc on valide les hypothèses du modèle pour notre exemple.
On peut maintenant tester la pertinence du modèle.
Lois des estimateurs
\[\frac{(A-\alpha)}{S_A}\sim \mathcal{T}{(n-2)}\mbox{ et }\frac{(B-\beta)}{S_B}\sim \mathcal{T}{(n-2)}\]
Estimateurs du modèle
\[\begin{align} IC_{1-\delta}(\alpha) =& \left[a-t_{1-\frac{\delta}{2}} s_A;a+t_{1-\frac{\delta}{2}} s_A\right]\\ IC_{1-\delta}(\beta)=&\left[b-t_{1-\frac{\delta}{2}} s_B;b+t_{1-\frac{\delta}{2}} s_B\right]\\ \end{align}\]
\(s_A = \sqrt{\frac{s^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}\) et \(s_B = \sqrt{s^2\left(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\)
Test de Student de la nullité de la pente de régression
\[H_0:\alpha=0\]
\[H_1:\alpha\neq 0\]
Test de Fisher de Comparaison de modèles
\[H_0\; :\; \text{modèle}\; M_1:Y_i=\beta+E_i,\quad E_i\; \overset{i.i.d.}{\sim} {\cal N}(0,\sigma^2)\]
\[H_1\; :\; \text{modèle}\; M_2:Y_i=\alpha x_i+\beta+E_i,\quad E_i\; \overset{i.i.d.}{\sim} {\cal N}(0,\sigma^2)\]
Définition : SCT
La variabilité de \(Y\) sans tenir compte du modèle.
\[\color{purple}{SCT =\displaystyle\sum_{i = 1}^n( Y_i - \bar{Y})^2}\]
Définition : SCM
Partie de la variabilité de \(Y\) expliquée par le modèle.
\[\color{blue}{SCM = \displaystyle\sum_{i=1}^n(\widehat{Y_i}-\bar{Y})^2}\]
Définition : SCR
Partie de la variabilité de \(Y\) qui n’est pas expliquée par le modèle.
\[\color{red}{SCR = \displaystyle\sum_{i=1}^n(Y_i-\widehat{Y_i})^2=\displaystyle\sum_{i=1}^n E_i ^2}\]
Décomposition de la variance
\[\color{purple}{SCT} = \color{blue}{SCM} + \color{red}{SCR} \]
Test de Fisher
\[T_n=\frac{SCM/1}{SCR/(n-2)} \overset{H_0}{\sim} \mathcal{F}(1,n-2)\]
Coefficient de détermination
\[R^2 = \frac{SCM}{SCT}\]
Intervalle de confiance de la droite de régression
\[\begin{align} IC_{1-\delta}(\mathbb{E}[Y_0])=&&\left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\sqrt{s^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)};\right.\\ &&\left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\sqrt{s^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right] \end{align}\]
Intervalle de prévision
\[\begin{align} IP_{1-\delta}(Y_0)=&&\left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)};\right.\\ &&\left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right] \end{align}\]
Définition
Degrés de libertés (Degrees of freedom) : Le nombre d’observations moins le nombre de paramètres d’espérance à estimer.
Dans le cadre du modèle linéaire simple le nombre de paramètre d’espérance à estimer est 2.
On a \(n\) observations le nombre de degrées de libertés est donc : \(n-2\)
Théorème
\(S^2\) est un estimateur sans biais de \(\sigma^2\) et on a
\[\frac{(n-2)S^2}{\sigma^2}=\frac{\sum_{i=1}^n(Y_i-Ax_i-B)^2}{\sigma^2}\sim\chi^2(n-2)\] De plus \(S^2\) est indépendant de \(A\), \(B\) et \(\bar{Y}\)
Théorème
\(A\) et \(B\) sont des estimateurs sans biais et consistants de \(\alpha\) et \(\beta\). \(A\) et \(B\) suivent des lois normales d’espérance \(\alpha\) et \(\beta\), et de variance
\[\begin{align} Var(A)&=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ & \\ Var(B)&=\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right) \end{align}\] Si on remplace \(\sigma^2\) par \(S^2\) pour obtenir des estimateurs des variances
\[\begin{align} S^2_A&=&\frac{S^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\mbox{ et } S^2_B=S^2\left(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right) \end{align}\]
on a
\[\frac{(A-\alpha)}{S_A}\sim \mathcal{T}{(n-2)}\mbox{ et }\frac{(B-\beta)}{S_B}\sim \mathcal{T}{(n-2)}\]
Théorème
A partir des lois de \(A\) et \(B\), on obtient:
Intervalles de confiance aléatoire des estimateurs de niveau \(1-\delta\) de \(\alpha\) et \(\beta\)
\[\begin{align} IC_{1-\delta}(\alpha) = \left[A-t_{1-\frac{\delta}{2}} S_A;A+t_{1-\frac{\delta}{2}} S_A\right]\\ IC_{1-\delta}(\beta)=\left[B-t_{1-\frac{\delta}{2}} S_B;B+t_{1-\frac{\delta}{2}} S_B\right]\\ \end{align}\]
où \(t_{1-\frac{\delta}{2}}\) est tel que \(\mathbb{P}\left(\mid \mathcal{T}(n-2)\mid \leq t_{1-\frac{\delta}{2}}\right)=1-\delta\)
\(t_{1-\frac{\delta}{2}}\) est le quantile d’ordre \(1-\frac{\delta}{2}\) de la loi de \(\mathcal{T}(n-2)\).
Théorème
\[\begin{align} IC_{1-\delta}(\alpha) = &\left[a-t_{1-\frac{\delta}{2}} s_A;a+t_{1-\frac{\delta}{2}} s_A\right]\\ IC_{1-\delta}(\beta)=&\left[b-t_{1-\frac{\delta}{2}} s_B;b+t_{1-\frac{\delta}{2}} s_B\right]\\ \end{align}\]
où \(t_{1-\frac{\delta}{2}}\) est tel que \(\mathbb{P}\left(\mid \mathcal{T}(n-2)\mid \leq t_{1-\frac{\delta}{2}}\right)=1-\delta\)
\(t_{1-\frac{\delta}{2}}\) est le quantile d’ordre \(1-\frac{\delta}{2}\) de la loi de \(\mathcal{T}(n-2)\).
\(s_A = \sqrt{\frac{s^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}\) : réalisation de \(S_A\)
\(s_B = \sqrt{s^2\left(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\) : réalisation de \(S_B\)
Test du caractère significatif de la liaison linéaire
Test de Student de la nullité de la pente de régression \(H_0:\alpha=0\) contre \(H_1:\alpha\neq 0\)
Test de Fisher de Comparaison de modèles : \[H_0\; \text{modèle}\; M_1:Y_i=\beta+E_i,\quad E_i\; i.i.d.\; {\cal N}(0,\sigma^2)\]
\[H_1\; :\; \text{modèle}\; M_2:Y_i=\alpha x_i+\beta+E_i,\quad E_i\; i.i.d.\; {\cal N}(0,\sigma^2)\]
Modélisation des données :
\((x_i,y_i)\), \(i=1,\dots,n\) : modèle linéaire \[\forall i=1,\cdots,n,\quad Y_i=\alpha x_i+\beta+E_i, \; E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]
Hypothèses :
Test de \[H_0:\alpha=0\]
contre
\[H_1:\alpha\neq 0\] au risque \(\delta=5\%\)
\(H_0:\alpha=0\) contre \(H_1:\alpha\neq 0\)
Statistique de test :
\[T_n =\frac{(A-\alpha)}{S_A} \overset{H_0}= \frac{A}{S_A} \overset{H_0}\sim \mathcal{T}{(n-2)}\]
Zone de rejet :
\[R_\delta = \{|T_n| > t_{1-\frac{\delta}{2}}\}\]
On rejette \(H_0\) si \(t_{n} \in R_{\delta}\)
Application numérique :
On calcule \(t_{n} = \frac{a}{s_A}\) la réalisation de \(T_n\).
On compare avec \(t_{1-\frac{\delta}{2}}\) et on conclue.
\(p\)-valeur :
\[p_c=\mathbb{P}_{H_0}(\mid T_n\mid >\mid t_{obs}\mid)=2(1-\mathbb{P}(T_n\leq |t_n|))\] où \(T_n\sim \mathcal{T}(n-2)\)
Pour un risque de 1ere espèce \(\delta\) fixé acceptable (par ex \(\delta=5\%\))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -876.48191 198.379689 -4.418204 3.318341e-04
Longueur 48.63832 7.082325 6.867565 2.004153e-06
Approche par comparaison de modèles
\[\begin{align} M_1 &: Y_i= \beta+E_i,\quad &E_i\ \overset{i.i.d.}\sim\ {\cal N}(0,\sigma^2)\\ M_2 &: Y_i=\alpha x_i+\beta+E_i,\quad &E_i\ \overset{i.i.d.}\sim\ {\cal N}(0,\sigma^2) \end{align}\]
\[H_0 : \mbox{ modèle } M_1\]
contre l’alternative
\[H_1 : \mbox{ modèle } M_2\]
Définition : Somme des Carrés Totale
La variabilité de \(Y\) sans tenir compte du modèle.
\[\color{purple}{SCT =\displaystyle\sum_{i = 1}^n( Y_i - \bar{Y})^2}\]
Définition : Somme des Carrés du Modèle
Partie de la variabilité de \(Y\) expliquée par le modèle.
\[\color{blue}{SCM = \displaystyle\sum_{i=1}^n(\widehat{Y_i}-\bar{Y})^2}\]
Définition : Somme des Carrés Résiduelles
Partie de la variabilité de \(Y\) qui n’est pas expliquée par le modèle.
\[\color{red}{SCR = \displaystyle\sum_{i=1}^n(Y_i-\widehat{Y_i})^2=\displaystyle\sum_{i=1}^n E_i ^2}\]
\[\color{purple}{SCT =\displaystyle\sum_{i = 1}^n( Y_i - \bar{Y})^2}\]
\[\color{blue}{SCM = \displaystyle\sum_{i=1}^n(\widehat{Y_i}-\bar{Y})^2}\]
\[\color{red}{SCR = \displaystyle\sum_{i=1}^n(Y_i-\widehat{Y_i})^2=\displaystyle\sum_{i=1}^n E_i ^2}\]
Théorème
\[\color{purple}{SCT} = \color{blue}{SCM} + \color{red}{SCR} \]
Il s’agit d’un test unilatéral de comparaison de variance !
Statistique de test
\[T_n=\frac{SCM/1}{SCR/(n-2)} \overset{H_0}{\sim} \mathcal{F}(1,n-2)\]
Zone de rejet
\[R_\delta = \{T_n > f_{1-\delta} \}\]
\(f_{1-\delta}\) est le quantile \(1 - \delta\) de la loi de Fisher \(\mathcal{F}(1,n-2)\).
\(\mathbb{P}_{H_0}(T_n<f_{1-\delta})=1-\delta\)
Application numérique
Calcul de \(p_c\)
\(p_{c} = \mathbb{P}_{H_0}(T_n > t_n)=1-\mathbb{P}(F<t_n)\) où \(F\sim \mathcal{F}(1,n-2)\)
Call:
lm(formula = Poids ~ Longueur, data = fish)
Residuals:
Min 1Q Median 3Q Max
-218.349 -22.040 -5.274 46.515 97.877
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -876.482 198.380 -4.418 0.000332 ***
Longueur 48.638 7.082 6.868 2e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 71.27 on 18 degrees of freedom
Multiple R-squared: 0.7238, Adjusted R-squared: 0.7084
F-statistic: 47.16 on 1 and 18 DF, p-value: 2.004e-06
\[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Source} & \text{ddl} & \text{Somme} & \text{Carrés Moyens} & \text{statistique} & p_c\\ \text{de variabilité} & \text{des Carrés} & SC & CM & \text{de test} & \\ \text{de }Y &&&&&\\ \hline \text{Modèle} & 1 & \text{SCM} & CMM=SCM/1 & t_n=\frac{CMM}{CMR} & \mathbb{P}(\mathcal{F}(1,n-2)>t_n) \\ \text{Résidu} & n-2 & SCR & CMR=SCR/(n-2) &&\\ \hline \text{Total} & n-1 & SCT & CMT=SCT/(n-1) &&\\ \hline \end{array} \]
On veut tester
contre
Cette fois-ci, on va se concentrer sur les résidus de ces deux modèles.
\[Y_i=\beta+ \alpha x_i+E_i, \mbox{ où } E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]
\(Y_i \overset{i.i.d.}\sim {\mathcal N}(\alpha x_i+\beta;\sigma^2)\).
2 paramètres d’espérance \(\alpha\) et \(\beta\) estimés (par les moindres carrés) par \(A\) et \(B\).
Prédicteur \(\widehat{Y_i}(M_2)=Ax_i+B\)
Somme des carrés résiduelles :
\[SCR(M_2) = \sum_{i=1}^n (Y_i-\widehat{Y_i}(M_2))^2 = \sum_{i=1}^n (Y_i-Axi-B)^2\]
\[Y_i=\beta+E_i, \mbox{ où } E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]
\(Y_i\overset{i.i.d.}\sim{\cal N}(\beta;\sigma^2)\)
1 paramètre d’espérance \(\beta\) estimé (par les moindres carrés) par \(\bar{Y}\).
Prédicteur \(\widehat{Y_i}(M_1) = \bar{Y}\)
Somme des carrés résiduelles :
\[SCR(M_1)=\sum_{i=1}^n E_i^2(M_1)=\sum_{i=1}^n (Y_i-\widehat{Y}_i(M_1))^2=\sum_{i=1}^n (Y_i-\bar{Y})^2=SCT\]
Théorème
Statistique de test \(T_n\) peut s’écrire
\[ \begin{align} T_n &= \frac{SCM/ 1}{SCR(M_2)/(n-2)} \\ &= \frac{(SCR(M_{\color{red}{1}}) - SCR(M_{\color{red}{2}}))/ ( 2 - 1)}{SCR(M_2)/(n- 2)}\overset{H_0}\sim \mathcal{F}(1,n-2) \end{align} \]
Remarques
\(SCR(M_{\color{red}{1}}) - SCR(M_{\color{red}{2}})\) : différence des variances non expliquées par les modèles.
\((2-1)\) : différence du nombre de paramètres.
\(SCR(M_1)\geq SCR(M_2)\) (toujours !).
Remarques
Le test répond à la question : la droite des moindres carrés \(y=ax+b\) (modèle \(M_2\) estimé) explique mieux le nuage de points que la droite horizontale \(y=b\) (modèle \(M_1\) estimé), mais le gain est-il significatif ?
\(SCR(M_1)\geq SCR(M_2)\)
On n’abandonnera \(M_1\) pour que \(M_2\) que si la réduction d’erreurs en passant du “petit” modèle \(M_1\) au “grand” modèle \(M_2\) est significative.
L’introduction de la pente a permis d’expliquer \(SCM=SCR(M_1)-SCR(M_2)\) et a laissé inexpliquée \(SCR(M_2)\).
Call:
lm(formula = Poids ~ 1, data = fish)
Residuals:
Min 1Q Median 3Q Max
-239.50 -98.25 6.00 118.50 218.50
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 481.50 29.51 16.31 1.25e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 132 on 19 degrees of freedom
Remarques
Définition : Coefficient de détermination
On appelle le coefficient de détermination \(R^2\) la proportion de la variabilité de \(Y\) expliquée par le modèle. Cette proportion est donnée par
\[R^2 = \frac{SCM}{SCT}\]
\[R^2 = 0.8395522\]
\[R^2 = 0.0353026\]
\({\widehat y}_0 = ax_0 +b\) est une réalisation de la variable aléatoire \(\widehat{Y_0}\) définie par \(\widehat{Y_0}=Ax_0+B\)
\(\mathbb{E}[\widehat{Y_0}]=\alpha x_0+\beta\) : \(\widehat{Y_0}\) est un estimateur sans biais de \(\mathbb{E}[Y_0] = \alpha x_0+\beta\)
De plus, si \(y_0\) était disponible, on lui associerait une v.a. \(Y_0\) définie par \[Y_0=\alpha x_0+\beta + E_0,\quad E_0\overset{i.i.d}\sim{\cal N}(0,\sigma^2)\]
\(\widehat{y_0}\) est donc à la fois une estimation de \(\mathbb{E}[Y_0]\) et une prévision de \(y_0\)
1 : On ne prend pas en compte la variabilité de \(E_0\)
\(\widehat{y_0} = a x_0 +b\) est une estimation de \(\mathbb{E}[Y_0]\) :
Construire un intervalle de confiance pour le paramètre \(\mathbb{E}[Y_0]\). On s’interesse ici à la partie de la réponse expliquée par le modèle. (Seulement la partie du poids du poisson qui est expliquée par sa longueur)
En faisant varier \(x_0\), construire un intervalle de confiance de la droite de régression \(\alpha x+\beta\)
2 : On prend en compte la variabilité de \(E_0\)
\(\widehat{y_0}\) est une prévision de \(y_0\) :
On s’interesse ici à la totalité de la réponse. (On veut un intervalle sur le poids du poisson totale.)
Théorème
\(\widehat{Y_0}=Ax_0+B\) est un estimateur sans biais de \(\mathbb{E}[Y_0]=\alpha x_0+ \beta\), de variance \[\mathbb{V}\left[\widehat{Y_0}\right]=\sigma^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right).\]
L’estimateur de la variance \(\mathbb{V}\left[\widehat{Y_0}\right]\) est donnée par \[S_0^2=S^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)\]
De plus, \[ \frac{\left(\widehat{Y_0}-\mathbb{E}[Y_0]\right)}{S_0}\sim \mathcal{T}(n-2) \]
Théorème
Intervalle de confiance de \(\mathbb{E}[Y_0]\) au niveau de confiance \(1-\delta\)
\[ IC_{1-\delta}(\mathbb{E}[Y_0]) = \left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\ s_0;\right. \left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\ s_0\right], \] où
\(s_0 = \sqrt{s^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\)
\(t_{1-\frac{\delta}{2}}\) est tel que \(\mathbb{P}\left(\mid \mathcal{T}(n-2)\mid \leq t_{1-\frac{\delta}{2}}\right)=1-\delta\).
Remarques
\(IC_{1-\delta}(\mathbb{E}[Y_0]) = \left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\ s_0;\right.\left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\ s_0\right],\) avec \(s_0 = \sqrt{s^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\)
En faisant varier \(x_0\), les IC définissent deux hyperboles qui sont l’IC de la droite de régression
Plus on s’éloigne du point moyen \((\bar{x},\bar{y})\), moins l’estimation est précise
On rajoute l’aléa non expliqué par le modèle
Théorème
\(Y_0=\alpha x_0+\beta + E_0\)
\[\mathbb{V}(\widehat{Y_0} - Y_0)= \mathbb{V}[Ax_0+ B] + \mathbb{V}[E_0] = \sigma^2\left( 1 + \frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)\] estimée par \[S_{P_0}^2=S^2\left( 1 + \frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)\] De plus, \[ \frac{(\widehat{Y_0} -Y_0)}{S_{P_0}}\sim\mathcal{T}(n-2) \]
Théorème
\[\frac{(\widehat{Y_0}-Y_0)}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}}\sim\mathcal{T}(n-2)\] Intervalle de prédiction de \(Y_0\) de niveau \(1-\delta\) :
\[ \begin{align} IP_{1-\delta}(Y_0)=&&\left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)};\right.\\ &&\left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right] \end{align} \]
où \(t_{1-\frac{\delta}{2}}\) est tel que \(\mathbb{P}\left(\mid \mathcal{T}(n-2)\mid \leq t_{1-\frac{\delta}{2}}\right)=1-\delta\)
Remarques
\[IC_{1-\delta}(\mathbb{E}[Y_0])\subset IP_{1-\delta}(Y_0)\]
1 2 3 4 5 6
251.9271 290.8378 285.9740 402.7059 412.4336 427.0251
fit lwr upr
1 582.6677 426.1422 739.1932